肿瘤外显子数据处理系列教程(一)读文献并且下载测序数据
大家好,我是生信技能树目前最优秀学徒,不过下个月就要走了,去西湖大学,所以数据挖掘栏目就永久性停更,不过会有学弟学妹接棒给大家带来更多更好的教程,在这剩下的一个月我发挥一下余热,更新5次肿瘤外显子数据处理教程作为学徒培养答辩吧!
周一学徒数据挖掘专场:NEAT1在组织和TCGA所有癌症中的表达 (欢迎大家继续回看我半年的分享)
https://doi.org/10.1016/j.celrep.2018.10.046
六个case,每个case有一个Germline,每个case有A、B、C三个Biological replicate,每个case有一个Technical replicate,每个case有一个既有Technical replicate又有Biological replicate,一共是六个case,六个条件。
NCBI的Sequence Read Archive (SRA),每个项目的url格式都是一样的,https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRPXXX.
首先筛选掉PCR数据,下载两个list,“RunInfo Table”和“Accesssion List”。
RunInfo Table: 包含了较多的信息,可用于数据下载完成后对文件的重新命名
Accesssion List: 只有一列,prefetch可以接受改文件,下载列表中包含的所有样本
下载数据使用的软件是prefetch,SRA Toolkit的套件之一,如果使用conda的话,需要安装的软件是sra-tools,而不是prefetch。
首先建立一个命名为wes的conda环境
## 组织项目
mkdir 0.sra log
## 安装conda
wget https://repo.anaconda.com/miniconda/Miniconda2-latest-Linux-x86_64.sh
bash Miniconda2-latest-Linux-x86_64.sh
## 使用官方镜像
conda config --add channels conda-forge
## 创建一个wes环境
conda create -n wes python=2
conda info --envs
## 创建后需要激活该环境
source activate wes
## 所有的安装都是建立在该环境已经激活的前提下,后续使用到的软件,同样需要激活后再安装
conda install sra-tools
prefetch,默认通过https下载数据,但是速度不理想。
aspera的下载速度很快,但是它不是SRA Toolkit的套件之一,不能用conda安装,需要下载安装脚本。
wget https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
tar -zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
## 需要手动添加环境变量
export PATH='$HOME/.aspera/connect/bin:$PATH'
source ~/.bashrc
##私钥文件位于 $HOME/.aspera/connect/etc
## 这是调用的是aspera
nohup prefetch --option-file config -O ./0.sra -X 200G > ./log/0.download_sra.log 2>&1 &
当你的环境中有了aspera之后,使用prepetch命令时,他会优先调用aspera来进行下载
(rna) llwu:~/llwu/SRP070662/0.sra$ ls -hl
total 176G
-rw-r--r-- 1 llwu llwu 55M 2月 23 2018 CM000663.1
-rw-r--r-- 1 llwu llwu 58M 2月 23 2018 CM000664.1
-rw-r--r-- 1 llwu llwu 47M 2月 23 2018 CM000665.1
-rw-r--r-- 1 llwu llwu 45M 2月 23 2018 CM000666.1
-rw-r--r-- 1 llwu llwu 43M 2月 23 2018 CM000667.1
-rw-r--r-- 1 llwu llwu 41M 2月 23 2018 CM000668.1
-rw-r--r-- 1 llwu llwu 38M 2月 23 2018 CM000669.1
-rw-r--r-- 1 llwu llwu 35M 2月 23 2018 CM000670.1
-rw-r--r-- 1 llwu llwu 29M 2月 23 2018 CM000671.1
-rw-r--r-- 1 llwu llwu 32M 2月 23 2018 CM000672.1
-rw-r--r-- 1 llwu llwu 32M 2月 23 2018 CM000673.1
-rw-r--r-- 1 llwu llwu 32M 2月 23 2018 CM000674.1
-rw-r--r-- 1 llwu llwu 23M 2月 23 2018 CM000675.1
-rw-r--r-- 1 llwu llwu 22M 2月 23 2018 CM000676.1
-rw-r--r-- 1 llwu llwu 20M 2月 23 2018 CM000677.1
-rw-r--r-- 1 llwu llwu 19M 2月 23 2018 CM000678.1
-rw-r--r-- 1 llwu llwu 19M 2月 23 2018 CM000679.1
-rw-r--r-- 1 llwu llwu 18M 2月 23 2018 CM000680.1
-rw-r--r-- 1 llwu llwu 14M 2月 23 2018 CM000681.1
-rw-r--r-- 1 llwu llwu 15M 2月 23 2018 CM000682.1
-rw-r--r-- 1 llwu llwu 8.5M 2月 23 2018 CM000683.1
-rw-r--r-- 1 llwu llwu 8.4M 2月 23 2018 CM000684.1
-rw-r--r-- 1 llwu llwu 37M 2月 23 2018 CM000685.1
-rw-r--r-- 1 llwu llwu 26K 2月 24 2018 NC_012920.1
-rw------- 1 llwu llwu 4.1M 3月 5 18:09 nohup.out
-rw-r--r-- 1 llwu llwu 4.8G 2月 24 2016 SRR3182418.sra
-rw-rw-r-- 1 llwu llwu 17M 3月 5 09:11 SRR3182418.sra.vdbcache
-rw-r--r-- 1 llwu llwu 3.0G 2月 24 2016 SRR3182419.sra
-rw-rw-r-- 1 llwu llwu 7.1M 3月 5 09:13 SRR3182419.sra.vdbcache
-rw-r--r-- 1 llwu llwu 3.1G 2月 24 2016 SRR3182420.sra
-rw-rw-r-- 1 llwu llwu 13M 3月 5 09:22 SRR3182420.sra.vdbcache
-rw-r--r-- 1 llwu llwu 3.1G 2月 24 2016 SRR3182421.sra
-rw-rw-r-- 1 llwu llwu 13M 3月 5 09:31 SRR3182421.sra.vdbcache
-rw-rw-r-- 1 llwu llwu 3.1G 3月 1 10:58 SRR3182422.sra
-rw-rw-r-- 1 llwu llwu 15M 3月 4 10:25 SRR3182422.sra.vdbcache
-rw-r--r-- 1 llwu llwu 3.0G 2月 24 2016 SRR3182423.sra
-rw-rw-r-- 1 llwu llwu 12M 3月 5 11:44 SRR3182423.sra.vdbcache
-rw-rw-r-- 1 llwu llwu 7.8G 3月 1 11:57 SRR3182424.sra
-rw-rw-r-- 1 llwu llwu 18M 3月 1 11:59 SRR3182424.sra.vdbcache
-rw-rw-r-- 1 llwu llwu 7.8G 3月 4 09:41 SRR3182425.sra
-rw-rw-r-- 1 llwu llwu 38M 3月 4 09:43 SRR3182425.sra.vdbcache
-rw-r--r-- 1 llwu llwu 7.7G 2月 24 2016 SRR3182426.sra
-rw-rw-r-- 1 llwu llwu 21M 3月 5 12:18 SRR3182426.sra.vdbcache
-rw-r--r-- 1 llwu llwu 8.2G 2月 24 2016 SRR3182427.sra
-rw-rw-r-- 1 llwu llwu 23M 3月 4 09:30 SRR3182427.sra.vdbcache
-rw-r--r-- 1 llwu llwu 7.6G 2月 24 2016 SRR3182428.sra
-rw-rw-r-- 1 llwu llwu 22M 3月 5 13:31 SRR3182428.sra.vdbcache
-rw-r--r-- 1 llwu llwu 4.1G 2月 24 2016 SRR3182429.sra
-rw-rw-r-- 1 llwu llwu 11M 3月 5 13:23 SRR3182429.sra.vdbcache
-rw-r--r-- 1 llwu llwu 3.2G 2月 24 2016 SRR3182430.sra
-rw-rw-r-- 1 llwu llwu 7.8M 3月 5 11:33 SRR3182430.sra.vdbcache
-rw-rw-r-- 1 llwu llwu 4.0G 3月 4 09:35 SRR3182431.sra
-rw-rw-r-- 1 llwu llwu 9.4M 3月 4 09:37 SRR3182431.sra.vdbcache
-rw-r--r-- 1 llwu llwu 4.1G 2月 24 2016 SRR3182432.sra
-rw-rw-r-- 1 llwu llwu 12M 3月 5 15:02 SRR3182432.sra.vdbcache
-rw-r--r-- 1 llwu llwu 7.6G 2月 24 2016 SRR3182433.sra
-rw-rw-r-- 1 llwu llwu 22M 3月 5 11:00 SRR3182433.sra.vdbcache
-rw-r--r-- 1 llwu llwu 6.6G 2月 24 2016 SRR3182434.sra
-rw-rw-r-- 1 llwu llwu 17M 3月 1 10:38 SRR3182434.sra.vdbcache
-rw-r--r-- 1 llwu llwu 8.2G 2月 24 2016 SRR3182435.sra
-rw-rw-r-- 1 llwu llwu 20M 3月 5 15:23 SRR3182435.sra.vdbcache
-rw-r--r-- 1 llwu llwu 6.0G 2月 24 2016 SRR3182436.sra
-rw-rw-r-- 1 llwu llwu 17M 3月 5 16:10 SRR3182436.sra.vdbcache
-rw-r--r-- 1 llwu llwu 6.7G 2月 24 2016 SRR3182437.sra
-rw-rw-r-- 1 llwu llwu 17M 3月 5 11:01 SRR3182437.sra.vdbcache
-rw-r--r-- 1 llwu llwu 5.9G 2月 24 2016 SRR3182438.sra
-rw-rw-r-- 1 llwu llwu 17M 3月 5 16:34 SRR3182438.sra.vdbcache
-rw-rw-r-- 1 llwu llwu 6.2G 3月 1 11:58 SRR3182439.sra
-rw-rw-r-- 1 llwu llwu 32M 3月 1 12:00 SRR3182439.sra.vdbcache
-rw-r--r-- 1 llwu llwu 6.0G 2月 24 2016 SRR3182440.sra
-rw-rw-r-- 1 llwu llwu 15M 3月 5 17:01 SRR3182440.sra.vdbcache
-rw-rw-r-- 1 llwu llwu 7.9G 3月 1 12:03 SRR3182441.sra
-rw-rw-r-- 1 llwu llwu 29M 3月 1 12:05 SRR3182441.sra.vdbcache
-rw-r--r-- 1 llwu llwu 6.0G 2月 25 2016 SRR3182442.sra
-rw-rw-r-- 1 llwu llwu 16M 3月 5 10:58 SRR3182442.sra.vdbcache
-rw-r--r-- 1 llwu llwu 7.2G 2月 25 2016 SRR3182443.sra
-rw-rw-r-- 1 llwu llwu 15M 3月 4 23:04 SRR3182443.sra.vdbcache
-rw-r--r-- 1 llwu llwu 6.8G 2月 25 2016 SRR3182444.sra
-rw-rw-r-- 1 llwu llwu 18M 3月 5 17:10 SRR3182444.sra.vdbcache
-rw-rw-r-- 1 llwu llwu 5.7G 3月 1 11:42 SRR3182445.sra
-rw-rw-r-- 1 llwu llwu 14M 3月 1 11:45 SRR3182445.sra.vdbcache
-rw-rw-r-- 1 llwu llwu 7.1G 3月 1 11:42 SRR3182446.sra
-rw-rw-r-- 1 llwu llwu 17M 3月 1 11:44 SRR3182446.sra.vdbcache
-rw-r--r-- 1 llwu llwu 2.5G 2月 24 2016 SRR3182447.sra
-rw-rw-r-- 1 llwu llwu 17M 3月 5 17:19 SRR3182447.sra.vdbcache
看到了很多额外的文件,是因为
Most SRA files require additional sequence files in order to reconstruct original reads. prefetch ensures that you not only download the main file but all of its dependencies.
这里我们下载到的文件是sra,之后需要转换为fq文件,敬请期待第二讲!!!
■ ■ ■